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Морфологическое разложение слов на оснований 
лексического ударения в задачах распознавания 
украийнской речи 


У статті описано новий метод морфологічного розкладу слів шляхом моделювання лексичного наголосу, 
що актуально для систем розпізнавання українського мовлення. Критерій сегментації формулюється на 
підставі великого текстового корпусу та слів із позначеним наголосом. Наведений алгоритм пошуку 
знаходить одну або декілька найбільш імовірних сегментацій. Описуються експериментальні дослідження, 
обговорюються результати та плани на майбутнє. 

Ключові слова: лексичний наголос, морфологічний розклад, розпізнавання українського мовлення. 
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В статье описан новьішй подход к морфологическому разложению слов на основе моделирования 
лексического ударения, что актуально для систем распознавания украинской речи. Критерий сегментации 
формулируєется на оснований большого текстового корпуса и слов с обозначенньтм ударением. Приведенньтй 
алгоритм поиска находит один или несколько наиболее вероятньх сегментаций. Описьтваются зксперимен- 
тальнье исследования, обсуждаются результать!. 

Ключевье слова: лексическое ударение, морфологическое разложение, распознаваниєе 
украинской речи. 
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Вступ 


Явище лексичного наголосу відіграє важливу роль у багатьох мовах. Наголоше- 
ні та ненаголошені фонеми в українській мові відрізняються за багатьма просодичними 
параметрами. Тому під час генерування мовленнєвого сигналу за текстом необхідно 
прогнозувати лексичний наголос у словах. Наголос для відомих слів береться зі словника. 
Частка слів, які не входять до словника, тобто ООУ-слів (від англ. оп! о/ уосаБиіагу), 
може складати суттєвий відсоток у текстах за рахунок рідковживаних слів, термі- 
нології, власних назв, слів із помилками тощо. Наголошені фонеми майже завжди 
вимовляються відповідно до правил вимови, навіть у спонтанному мовленні. І цю власти- 
вість можна використати в задачах розпізнавання. 

Проблемі прогнозування наголосу присвячено багато наукових досліджень. 
У П| автори припускають, що морфологічний розклад для прогнозування лексичного 
наголосу особливо корисний у випадках недостатності локального контексту. Предста- 
влення слів як послідовності певним чином обгрунтованих сегментів або морфем є 
ключем до моделювання словотвору та до виходу за межі словникової моделі лексикону. 
Відомі методи морфологічного розкладу покладаються виключно на орфографію (21, |З. 
У наших дослідженнях прогнозування лексичного наголосу та морфологічний розклад 
розглядаються як результат одного і того ж процесу, через який на основі орфографіч- 
ного написання виявляються фонетичні, синтаксичні та семантичні ознаки. 

В українській мові позиція наголосу є нерегулярною та може змінюватися навіть 

у формах одного і того ж слова та в однокореневих словах (наприклад: фото - фо- 
фе фотографія - фотографує - фотографувати). Завдяки доступу до лекси- 
кографічної системи |4|, ми отримали можливість аналізувати понад 1,8 млн описаних 
експертами словоформ із позначеним лексичним наголосом. Створений без посередньо 
авторами базовий текстовий корпус містить 275 млн неперевірених реалізацій слів, 
що складають словник із близько двох мільйонів словоформ. Половина слів словни- 
ка цього корпусу описана в лексикографічній системі. Частка корпусу, не відображена в 
лексикографічній системі, складає 2,590, які ми фіксуємо як початковий показник ООУ. 
Додавання 200 тисяч найбільш частотних слів до словника дало змогу скоротити по- 
казник ООУ до 0,596. Таким чином, прогнозування наголосів сприятиме позиціюван- 
ню лексичного наголосу для величезної кількості як нових, так і відомих системі слів. 

Причина введення наголосів у системах озвучення текстів є очевидною через 
необхідність генерувати звуковий сигнал, що відповідає людському сприйняттю таких 
просодичних ознак, як тривалість, висота основного тону та енергія сигналу. У задачах 
розпізнавання мовлення моделі переходу в простір первинних ознак загалом є інва- 
ріантними до просодичних ознак. Утім, ми вважаємо, що введення як наголошених, так 
і ненаголошених фонем до алфавіту української мови є суттєвим з огляду на фонети- 
чні, лексичні Й акустичні факти. Наголошені голосні у багатьох випадках діють як окремі 
фонеми, змінюючи граматичну функцію слова та його значення у більш ніж 590 слів, 
що спостерігаються в базовому текстовому корпусі (явище омографії). 

Методи перетворення графем на фонеми, подібні до |5|, також можуть напряму за- 
стосовуватися для моделювання лексичного наголосу, хоча описаний у згаданій роботі 
підхід не передбачає врахування структурних властивостей наголосу. У цьому досліджен- 
ні ми пропонуємо зосередитись на моделюванні властивостей наголосу, а вже потім 
перетворювати текст із наголосами на послідовності фонем методами, описаними, 
наприклад, у |6|, які дають змогу враховувати особливості вимовляння. У реалізаціях 
згаданого методу достатньо задати 30 правил типу знайти-замінити-та-змінити-позицію 
для перетворення графемного тексту на фонемний, що моделює базову українську вимову. 
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Використання інформації про наголос 
у задачах розпізнавання мовлення 


Щоб дослідити акустичний аспект лексичного наголосу, ми оцінили параметри 
акустичної моделі, розглядаючи наголошені та ненаголошені голосні як різні фонеми 
та проаналізували відмінності між ними за допомогою інструментарію візуалізації 
прихованих марківських моделей |7|. На рис. 1 показана відмінність між акустични- 
ми моделями ненаголошених та наголошених фонем а та і, параметри яких оцінені 
на 40-годинному відрізку акустичного корпусу українського мовлення |З. 


ОЛЦ ТИ 


а 5ігез55есі ї зігеззесі 


ЛИН 


Рисунок 1 - Візуалізація акустичних моделей фонем а таі 


На рисунку представлені області, у яких спостерігаються центральні стани фонем. 
Ці області апроксимуються сумішшю із 32 нормальних законів у просторі первинних 
ознак на основі мел-кепстральних коефіцієнтів із застосуванням віднімання середнього, 
що загалом складає 13-вимірний вектор. Лінія з крапок відповідає нульовому значен- 
ню. Візуально наголошені моделі виглядають як підмножини для більшості вимірів. 
Накладання областей, а не їх включення, найбільш яскраво спостерігається у 
п'ятому вимірі моделі фонеми а і в першому вимірі фонеми і. На веб-сторінці інстру- 
ментарію |7| можна ознайомитися з іншими акустичними моделями. 

Аналізуючи матриці переходів між станами, ми бачимо, що значення, які відпо- 
відають робочим (емітентним) станам, у півтора - два рази більші для моделей наго- 
лошених фонем. Цей факт підтверджує суттєву відмінність довжин фонем залежно 
від наголошеності. 

Введення як наголошених, так і ненаголошених голосних фонем для розпізнавання 
української мови є відносно невеликою додатковою витратою обчислювальних ресурсів 
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(у результаті маємо 6 ненаголошених голосних та 6 наголошених - а, е, У, 1, 0, И, А, Е, У, 
І, О, ИЙ). Проте подібне розширення алфавіту фонем є суттєвим для мов, що мають знач- 
но більшу кількість голосних фонем. 

Найбільш переконливі аргументи за або проти введення наголошених фонем 
надає аналіз попередніх результатів розпізнавання українського мовлення. 

Для оцінки параметрів акустичної моделі використовувалися багатодикторна 
й однодикторна навчальні вибірки для обох версій алфавіту фонем на 49 та 55 монофо- 
нів відповідно. На лексичному рівні при послівному розпізнаванні злитого мовлення 
використовувалися бі- та триграмні моделі, а для пофонемного та поскладового розпізна- 
вання допускався вільний порядок слідування елементів. Для того, щоб можна було 
порівнювати результати, ми ігнорували інформацію про наголос у розпізнаних послідо- 
вностях слів і фонем. У всіх випадках спостерігалися результати, кращі на 12 - 2390 для 
акустичних моделей з ненаголошеними та наголошеними голосними щодо послівної 
або пофонемної помилки. 

Слід зазначити, що перевагою морфологічного розкладу є можливість представити 
весь лексикон системи розпізнавання за допомогою практично незмінної множини 
сегментів морфемного рівня. 


Модель сегментації слів на основі лексичного наголосу 


Нехай маємо словник // , що містить слова з позначеними атрибутами, такими 
як лексичний наголос. Кожне слово у" зі словника Й може бути розкладене на послідо- 
вність символів 4? щ (' фоофуно Фо ) які містяться в алфавіті літер або фонем О. 

МИ 


(») 


Ми розглядаємо послідовності 4" як сегменти деякої сегментації 50? серед 


усіх допустимих сегментацій 5 0) слова М, причому і-й сегмент сегментації 500 
55 07 | бихбання бунт (з) (1) 
І 


разом із Іншими сегментами 50? покривають усю 409 без перекриттів, що означає, 
що для будь-якої у є Й/ 


УЛ? -К,, п Кс піц 


і 


ой о 0) 


пуд, 


Цяд)-1 та 1600)- 429 Ук і2і, З) 


де І 0 повертає індекс елемента сегменту в 409 . Обмеження на найбільшу 


довжину сегмента, І, визначає порядок моделі. Також можуть бути введені 


тах 2 
й інші обмеження на сегментування, наприклад, заборона на два поспіль склади, на- 
голошені основним наголосом. 

Об'єднуючи всі сегменти допустимих сегментацій для всіх слів зі словника Й/, 
ми формуємо множину сегментів 
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5- 1) я? (4) 


і розглядаємо кожен сегмент 5, у цій множині, не зважаючи на належність до слів. 
Рівень наголосу 0!" - 10,1,2) , Який приписується кожному символу, формує відпо- 
відну послідовність атрибутів 889 - (баб у ). Ми припускаємо, що відмінний 


від нуля рівень наголосу може відповідати символам, якими вводиться склад, принаймні 
потенційно. Зазвичай, такими символами є голосні, доповнені специфічними приго- 
лосними, такими як «г» у словенській мові |3|. Для інших символів рівень наголоше- 
ності не допускається, а тому завжди дорівнює нулеві. Значення рівнів наголосу можуть 
бути обмежені нулем або одиницею, що означає, що розглядається лише основний 
наголос. Допускається введення інших значень, що відповідають різним атрибутам сим- 
волів, які можуть бути прихованими на письмі (риски, крапки, коронки тощо), та 


комбінаціям цих атрибутів. Отже, в загальному випадку ми посилаємося на 0" як на 
послідовність атрибутів для відповідних символів у слові м/. 


Очевидно, індекс, який повертається у (3) є одним і тим же, що і для 00? , ЧИЇ 
(и) 


1 


підпослідовності відповідають 5; . Послідовності атрибутів, що відповідають сег- 


ментації 5"), у свою чергу, формують множину 9". 
Ми можемо оцінити ймовірність послідовності атрибутів 0 за умови сегмента 5,, 


який спостерігався в навчальній вибірці: 


Рів |з ум бив) (5) 


сіз,) 
де с(з,, 0) є кількістю сегментів 5, з атрибутом наголосу, що визначений інди- 
катором наголосу 0, а сі(у,) - загальна кількість 5, . Усі підрахунки здійснюються за 


текстовим корпусом для слів, що входять до словника наг олосів. Для сегментів з 


малою частотою доцільно застосувати методику згладжування. 
(») 


Остаточно здійснюється пошук за всіма допустимими сегментаціями 5" та послі- 
довностями атрибутів 0, що задовольняють вираз: 
(з ї 68? | щ аготах Г РІФ | 5») ) (6) 
ОР 


У словах, які належать словнику наголосів, 80 визначається для кожного сегме- 
(») 


нту 5; однозначно, в іншому випадку пошук здійснюється засобами динамічного 
програмування для всіх допустимих послідовностей атрибутів. 

Таким чином, щоб виконати морфологічний розклад, ми ввели модель сегментації 
за ознаками, що, як правило, не відображаються в орфографії. До цих ознак відноситься 
лексичний наголос. Не кожний отриманий сегмент може бути допустимою морфемою 
внаслідок потенційно більш строгих обмежень на вміст морфеми, таких як наявність 
принаймні однієї голосної фонеми. Ці обмеження можна обійти шляхом об'єднання 


сегментів із одним або кількома прилеглими сегментами. 
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Аналіз графу сегментації 


Ми сконструювали граф динамічного програмування, на якому знаходження найко- 
ротшого шляху еквівалентно пошуку (6). Кожний вхідний символ вводить множину 
допустимих пар (сегмент, атрибути), що розташовані у вузлах графа і де накопичується 
частковий критерій. Запам'ятовуючи М перспективних стрілок, що входять у вузли, 
ми можемо отримати М кращих сегментацій слова. 

На рис. 2 показано приклад пошуку найкращого прогнозу наголосів (6) для власної 
назви Обама, що відсутнє у базовому словнику наголосів. Слово представлене як конка- 
тенація всіх допустимих сегментів символів, де довжина найдовшого сегмента обме- 
жується п'ятьма символами. Вхідні символи переведені у нижній регістр, додано 
символ «|», що позначає межі слів. Допустимі сегменти з атрибутами, які вводяться 
поточним спостережуваним елементом, будемо подавати в компактній формі, одразу 
відображаючи результат дії атрибутів. Так запис «обАм» у п'ятій колонці, який назвемо 
іменем вузла, означає сегмент (о, б, а, м) під дією вектора атрибутів (0, 0, 1, 0). Потенційно 
оптимальні стрілки або показуються або кодуються іменем попереднього вузла. Позна- 
чені часткові критерії грунтуються на логарифмі ймовірності. Оптимальна траєкторія, 
відповідні вузли та критерії виділені потовщенням. 

На цьому прикладі ми ілюструємо заборону на слідування двох поспіль наголо- 
шених сегментів: у 7-й колонці сегмент «мА» слідує за сегментом «а», а не «обА». 
Оскільки не вводиться обмежень на вміст сегментів, допускається сегмент, що містить 
одну приголосну «б», як у третій колонці. Таким чином ми гарантуємо успішність 
пошуку (6) для будь-якого слова. Система може вирішити, що обидва прилеглі сегменти 
належать до єдиної морфеми залежно від обмежень, які накладає експерт. Щоб сформу- 
вати формально допустиму морфему, ми можемо приєднати сегмент «б» до попереднього 
сегмента, віддаючи перевагу більш частотній морфемі та приходячи до сегментації 
Об-ама. Можемо побачити, що це слово іноземного походження апроксимується 
морфемами з рідної мови. Модель, поновлена зразками автоматично наголошених 
нових слів, отримує змогу навчитись на нові морфеми, що потенційно може привести 
до лінгвістично більш обгрунтованого розкладу даного слова та його форм у вигляді: 
Обам-а, Обам-и тощо. 


4 5 6 7 

а - М -- а - -- і 
а -077 б м -077 а а -0,91 бам -0,87 ама. 
А -0,84 б ам -1,11 6 А -0,98 бам -0,54 бам! 


а 
ба -0,79 |о Ам -0,57 б ма -1,36 обА А| -1,63 бам. 
оба -2,51 | бам -0,245 о | мА -1,26 обА а| -0,98 обА. 
Оба -0,96 | |обам -0,85 | |ама -0,87 б мА| -1,96 а | 
бА -0,81 |о |Обам -0,69 | |Ама -1,08 б ма| -0,38 б 

2,4 о |амА -1,98 б амА| -1,56 б 

-2,64 | 


Рисунок 2 - Граф прогнозування наголосу для слова Обама, 
яке відсутнє в базовому словнику наголосів 


Реалізація системи прогнозування наголосів 


Для реалізації описаного алгоритму сегментації слів було розроблено інстру- 
ментарій, що складається із трьох модулів. На даний момент допускається оперуван- 
ня лише інформацією про основний лексичний наголос. 
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Перший модуль - риїзітез55 -- готує дані, необхідні для обчислення ймовірностей (35) 
за вхідною базою даних і знань, частотним словником та, при потребі, за скоригова- 
ними пропорціями частот омографів. Модуль намагається отримати знання щодо позиції 
наголосу для кожного слова та, в разі успіху, зберігає слова, доповнені позначкою 
наголосу та частотою в окремий файл. Знайдені омографи зберігаються з частотами, 
уточненими відповідно до їх скоригованих пропорцій, які експерт може знову ж таки 
коригувати з наступним повторним запуском цього модуля. 

Другий модуль - яие555їге55 -- реалізує процедуру пошуку (6), отримуючи М кращих 
послідовностей сегментів із відповідними атрибутами. Частотний словник слів із позна- 
ченими наголосами є вхідними даними для оцінки ймовірностей гіпотетичних підпо- 
слідовностей символів. 

Третій модуль -- ргер зітез5уср -- формує словник наголосів за отриманими попе- 
реднім модулем сегментаціями. Декілька допоміжних модулів дають змогу виокремити 
різноманітну інформацію із вхідних даних, оцінених моделей та сегментацій. Усі мо- 
дулі написані мовою Реті. 


Опис текстових даних 


Словник наголосів отримано з підмножини електронної лексикографічної си- 
стеми, що містить 151 962 лем, включаючи понад десять тисяч імен, що загалом ста- 
новить 1,90 млн словоформ (|4|. Внаслідок аналізу спільної орфографії, кількість слів, 
що мають або відмінне написання, або основний наголос, складає 1,83 млн. 

Базовий текстовий корпус отримано з гіпертекстових даних, завантажених із 
ряду веб-сайтів, що містять новини та публіцистику (6090), художню літературу (890), 
енциклопедичні статті (2490) та юридичний матеріал (890). Зазначимо, що дані, заванта- 
жені з новинних сайтів, містять численні коментарі користувачів, які ми розглядаємо 
як текстові реалізації спонтанного мовлення. Надалі ми посилатимемось на базовий 
текстовий корпус, як на корпус 275М. Відповідно до наведеної характеристики цього 
корпусу в табл. 1, ми спостерігаємо в середньому 6,64 словоформ на лему, тоді як цей 
показник удвічі більший для словника на основі |4| і становить 12,3. Додавши до ві- 
домих слів словника найбільш частотних 200 тис. слів, ми скоротили показник ООУ 
до менше ніж 0,590. 


Таблиця 1 - Характеристика базового корпусу 275М 


Кількість |Кількість Словник Сом Кількість 
о речень | Усі слова | Відомі слова | Відомі леми омографів 
275 288 408 | 1 752 371| 1 996 897 801 040 120 554 2,5196| 16729476 


Ми бачимо, що частка слів-омографів, які мають дві та більше допустимих 
позицій наголосу, складає 690 від тексту. Зауважимо, що омографи можуть мати 
різну частоту, що впливає на частоту певних сегментів. Тому експерту надано 
можливість коригувати пропорції частоти омографів, словник яких складається з 
понад 14 000 елементів. 


Експериментальні дослідження 


Відомі слова та ООУ-слова були досліджені окремо. Метою дослідження відомих 
слів було з'ясувати, наскільки значна частина словника може бути закодована без за- 


«Штучний інтелект» 2013 Хе3 239 


Сажок М.М., Робейко В.В. 


значення інформації про лексичний наголос. Найбільший порядок /,,,, МОДелі рівний 


Х 
п'яти, багатозначність було обмежено чотирма кращими сегментаціями, за якими форму- 
вався словник наголосів. Експерт скоригував пропорції частотності для перших за часто- 
тою 500 омографів. 


Системою виявлено близько мільйона пар (сегмент, наголос). Частоти для сег- 


ментів різної довжини показані у табл. 2. 


Таблиця 2 - Кількісні характеристики виявлених сегментів 


Довжина сегмента, І, 1 2 3 4 5 
Кількість сегментів 46 1781 35 280 233 816 721 575 
Частота (млн) 2115,652| 1848,766| 13581,879| 1314,993| 1 070,579 


Було використано 215 000 сегментів для передбачення наголосу у словах кор.пу- 
су 275М. Для менше ніж 190 відомих слів наголос було передбачено хибно. Визначення 
наголосу для 5 000 ООУ-слів дало помилку у 21,19 слів, що відповідає 5,390 складів. 
Варто зазначити, що більше половини неправильно визначених наголосів припадає 
на рідкісні запозичення з інших мов. 

Чи не найбільший інтерес викликає реакція системи на рух наголосу в одноко- 
реневих словах. Перевіривши слова, похідні від фото/фотографія, ми виявили, що лише 
слово фотограф мало хибно визначений наголос. 


Висновки 


Запропонована модель сегментації морфемного рівня дає змогу одночасно вия- 
вляти ознаки, які, як правило, ігноруються при написанні слів. Введена багатозначність 
дає змогу обирати кращу гіпотезу з урахуванням ширшого контексту на рівні слів, 
що є актуальним при аналізі омографів. Подальше вдосконалення запропонованої 
моделі полягає у введенні контексту на сегментному рівні. 

Оцінювання параметрів моделі передбачає покращення сили прогнозування за 
рахунок додання до навчальної вибірки невідомих слів та коригування експертом на- 
голосів у словах між ітераціями. Необхідно передбачити інтерактивну процедуру такого 
коригування, щоб уникати зайвої роботи з однокореневими словами під час аналізу. 
Планується також дослідити вплив вибору порядку моделі, ввести нові ознаки, вико- 
ристати фонемний вхідний текст та розширити коло досліджуваних мов. Зважаючи на 
доступність реалізації підходу |5| у відкритому коді, існує можливість провести порів- 
няльний аналіз обох методів на одному й тому ж матеріалі. 
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Техісаї! 5Зіте55-Базедй Могрйоїіор?ісаї! Десотрозіїйоп /ог (ЖКтаїпіанп 
Уреесй Кесояпійоп ТазК5 


ТЬі5 рарег ргезепі5 ап арргоаср їо ууога плогрроіовбіса! Фесотрозбійоп Базед оп 
Іехісаї 5(ге55 плодейпо. Гехісаї зіге55 ргедісйоп апа пюогрроїодіса! Фесотрозбійоп аге 
сопзідегед аз а гезиії ої Ше зате ргосез5 ШгоцеБ ус; рропейс, зупіасіїс апа зетапіїс 
ріддеп Кеагигез сап Бе Фізсоуегей тот ууога зреШтє. 

Стуеп побуайоп сопійгтія Шаї іпігодисйїоп ої бо 5ігез5ед апа ппзігез5ей уоукеїз 
іо їБе 5реесії гесорпійоп 5узіеті рропете аррабеї, аг Ісазі Їог ОКгаїпіап, 15 ез5епна! де 
ко рбопебіс, Їехісаї, апа асоцзбїса! Гасівз. 

МУ ога зестепіайоп дпайу 15 е5ійтатеад Бу а піддеп уагіабіе Шаг аз5іспя Ше Іехіса! 
зіге85. Тре Тогппціаїсд 5естепіайоп сгіїегіоп 15 Базед оп а (таїпіпо 5ек ої ууогдз упіб 
тапиаПу роїпіеа 5іге55е5 апа а Іагее їехі согриз. ТРБе дезстібед 5еагсі аїдогіїрт йпадз8 опе 
ог птоге зестепіайопя Уїі Ше Без ПкейПпооа Бу теап5 ої дупатіс ргостатитіпо. 

Тре 4еуеіореай іооікії аПом/є їог аз5ієпіпє а ргітагу Іехіса| 5іге55 їп шпкКпом п 
ууогд8. Везіде гедцігед іприї їехі 4аїа апа Базіс 5іте85 Ууосабиіагу, ап ехрегі плау ргоміде 
рБотоєгарп оссштепсе ргорогіїоп5, уурбісп 15 ез5епйаї Бог орегайпе у/іїб соггесі ууога 
зертепі бедцепсу. Тре ехрегітепіа! гезеагсб 15 Фезсгібед аз умеї аз гезиїіз апа Йииге 
ріап5 аге дїзсиз55ед. 
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